William Korcari, Dissertation, Fachbereich Physik der Universität Hamburg, 2025 :

"Advancements in The Simulation of High Granular Calorimeters for High Energy Physics using Generative Machine Learning Techniques"



Summary

Kurzfassung

Der Bereich der Teilchenphysik stützt sich bei seinen Analysen in hohem Maße auf simulierte Daten. Die zunehmende Menge an Messdaten führt dazu, dass mehr Simulationen benötigt werden, um unser aktuelles Wissen über die Natur mit den tatsächlichen Messungen zu vergleichen. Ein Grund für den drastischen Anstieg der gemessenen Daten in der Zukunft ist das High Luminosity Upgrade am LHC, bei dem Kollisionen mit einer viel höheren Rate stattfinden werden, wodurch die Anzahl der gemessenen Kollisionen drastisch ansteigt. Von besonderem Interesse für den Umfang dieser Arbeit ist das CMS High Granular Calorimeter (HGCal), das die derzeitigen Endkappen-Kalorimeter von CMS ersetzen wird. Dieser Detektor umfasst ca. 3 Millionen hexagonale Auslesezellen pro Endkappe, was ihn zu einem Gerät macht, das in der Lage ist, feinkörnige Schauer zu erzeugen. Außerdem wird ein System implementiert, das den Zeitpunkt einer Messung in einer Detectorzelle mit einer Auflösung von etwa 30 ps aufzeichnen kann, was bei der Unterdrückung von pile-up und der Rekonstruktion von Trajektorien individueller Teilchen hilfreich sein wird. Generatives maschinelles Lernen hat in letzter Zeit an Bedeutung gewonnen, da sie das Potenzial hat, die Standardsimulationstechniken zu ergänzen.. Diese Arbeit konzentriert sich auf mehrere generative Modelle, die uns dem Ziel einer schnelleren und genaueren Simulation näher bringen. Die erste Studie wurde mit Graph Neural Networks durchgeführt, da Graphen eine sehr natürliche Art und Weise sind, elektromagnetische Schauer zu beschreiben, aber in Bezug auf die Skalierbarkeit Mängel aufweisen. Wir fanden heraus, dass es sinnvoll ist, bereits vorhandene Informationen wie die Geometrie des Kalorimeters zu nutzen, um ein solches Netzwerkarchitektur Netz zu trainieren, aber die hohe Kardinalität führte uns in die Richtung von Graphen, die mit diesen Informationen wachsen können, aber nur bis zur benötigten Schauergröße, anstatt die gesamte Anzahl der jederzeit verfügbaren Zellen zu nutzen. Da sich dieser erste Versuch als zu schwierig erwies und sich die Technologie weiterentwickelte, haben wir das EPiC-GAN-Modell verwendet, das eine gute Genauigkeit und eine hohe Generierungsgeschwindigkeit bei Schauern mit geringerer Komplexität zeigte, aber nicht auf die Kardinalität des HGCal skalieren konnte. Schließlich haben wir CaloClouds II implementiert, ein Modell, das eine Kombination aus einem Diffusion Modell mit kontinuierlicher Zeit und einem Normalizing Flow ist, um nicht nur das HGCal erfolgreich simulieren zu können, sondern auch die Time-of-Hits-Funktion einzubeziehen, die eine entscheidende Integration in dieses Detektor-Upgrade sein wird.

Titel

Kurzfassung

Summary

The field of Particle Physics heavily relies on simulated data in order to perform analyses. The increase in the amount of measured data translates in the need for more simulations used to compare out current knowledge of Nature to actual measurements. One reason for a drastic increase of measured data in the future is the High Luminosity upgrade at the LHC, which will feature collisions at a much higher rate thus drastically increasing the number of measured collisions. Of particular interest for the scope of this work is the CMS High Granular calorimeter (HGCal), which will replace CMS’s current endcap calorimeters. This detector comprises circa 3 million readout hexagonal cells per endcap, making it a machine capable of producing fine-grained showers. It will also implement a system capable of recording the time of a hit measurement with a resolution of circa 30 ps, which will help with pile-up rejection and track reconstruction. Generative Machine Learning has risen recently as it has the potential to augment standard simulation techniques. This thesis focuses on multiple generative models that bring us closer to the goal of faster and more accurate simulation. The first study was performed on Graph Neural Networks, as graphs are a very natural way to describe electromagnetic showers, but this model architecture lacks in terms of scalability. We found that there is value in utilizing already given information like the geometry of the calorimeter to train such a network, but the high cardinality led us toward the direction of graphs that could grow using that information but only until the needed shower size instead of using the whole number of cells available at all times. As this first attempt proved to be too challenging and the technology evolved, we then moved on with the EPiC GAN model, which showed good fidelity and high generation speed on showers with reduced complexity but failed to scale up to the cardinality of the HGCal. Finally, we implemented CaloClouds II, a model that is a combination of a continuous-time diffusion model and normalizing flow, to not only be able to successfully simulate the HGCal calorimeter but to do so by also including the time-of-hits feature which will be a crucial integration in this detector upgrade.